Simplificación automática de textos en euskera
نویسنده
چکیده
En este art́ıculo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado “Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan” (Identificación y simplificación de las estructuras sintácticas complejas en el procesamiento automático del Euskera) que se realiza bajo la dirección de las doctoras Arantza Dı́az de Ilarraza y Maŕıa Jesús Aranzabe. Este trabajo está enmarcado dentro de las actividades del grupo IXA de la Universidad del Páıs Vasco (UPV/EHU) y sigue la ĺınea investigación de la simplificación automática de textos [GDADdI13, Sha14]. Las principales motivaciones para esta tesis son, por una parte, resolver los problemas que las oraciones complejas y largas crean en las aplicaciones avanzadas (traductores automáticos, analizadores, generadores de preguntas...) del PLN y ayudar a la gente que aprende lenguas extranjeras, en nuestro caso, el aprendizaje del euskera, a comprender mejor los textos. Para ello, queremos crear oraciones simples manteniendo el significado de la oración de origen, es decir, queremos convertir un texto complejo en un texto más fácil que mantenga el significado y la información del original. Con intención de cumplir dichos objetivos, nuestro planteamiento tiene dos pilares: desarrollar la arquitectura del sistema (sección 2) creando herramientas y recursos para ella y analizar las estructuras sintácticas del euskera para proponer reglas de simplificación (sección 3). De este modo, queremos crear también un corpus de textos simplificados en Euskera, inexistente hasta ahora. En la sección 2 explicaremos el proceso de simplificación y arquitectura del sistema que hemos diseñado. Después, en la sección 3 describiremos las estructuras sintácticas que hemos analizado hasta el momento. Concluiremos resumiendo el trabajo realizado hasta ahora y expondremos su continuidad en la sección 4.
منابع مشابه
Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos
La extracción automática de definiciones a partir de textos de especialidad es una tarea cada vez más demandante para diferentes aplicaciones del Procesamiento de Lenguaje Natural, tales como lexicografía computacional, extracción de información, semántica computacional, sistemas preguntarespuesta, minería de textos, Web semántica y aprendizaje automático. Este artículo presenta un panorama de ...
متن کاملAnotación morfosintáctica do Corpus Técnico do Galego
O Corpus Técnico Anotado do Galego (CTAG) é a versión categorizada e lematizada do Corpus Técnico do Galego (CTG), unha colección de córpora do galego contemporáneo composta de textos monolingües especializados nos eidos do dereito, da informática, da economía, das ciencias ambientais, da socioloxía e da medicina, dispoñible en Internet desde 2006 para libre consulta (Gómez Clemente e Gómez Gui...
متن کاملExtracción automática de contextos definitorios en textos especializados
Uno de los problemas recurrentes de cualquier área de conocimiento es la organización y explicación de los términos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologías para el trabajo terminológico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se p...
متن کاملClassificação Automática de Textos por Período Literário Utilizando Compressão de Dados Através do PPM-C
Métodos e técnicas para compressão de dados têm sido utilizados para o reconhecimento de padrões, incluindo a classificação automática de textos. A eficiência do método Prediction by Partial Matching (PPM) como classificador textual já foi comprovada em diversos trabalhos, entre eles a atribuição de autoria para textos em português. As classes utilizadas no processo de classificação não precisa...
متن کاملDesarrollo de un sistema para medir similitud entre clases
Resumen. El incremento continuo de información en formato digital obliga a contar con nuevos métodos y técnicas para acceder, recopilar y organizar estos volúmenes de información textual. Una de las técnicas más utilizadas para organizar dicha información es la clasificación de documentos. Los sistemas de clasificación automática de textos tienen una baja eficiencia cuando las clases son muy pa...
متن کامل